查看原文
其他

大数据的价值挖掘与联想的探索实践

芮勇 中国计算机学会
2025-01-08


发现大数据的价值已成为学术界和工业界的热门话题。本文从数据分析与预测、数据提取与处理、数据隐私与安全三个方面探讨如何挖掘大数据的价值,并介绍联想集团在这些领域的实践。


引言


近年来,“大数据”一词被广泛提及,人们用它来描述和定义信息爆炸时代产生的海量数据。根据研究机构高德纳(Gartner)的定义[1],“大数据”是海量、高速、多样化的信息资产,它需要有效创新的信息处理模式才能产生对事物的洞察分析、帮助制定决策和促进流程优化。这个定义揭示出大数据是一种资产,但这个资产的价值不在于庞大的数据量本身,而在于对这些数据进行分析处理,发现数据中潜在的规律,从而创造价值。


大数据在医疗、商业、金融、政治事件以及企业生产和运营中凸显了巨大价值。随着信息化和数字化系统的部署,生产制造类企业逐渐积累起产品相关的全流程、全生命周期的数据和信息。通过对这些数据进行整合、分析、处理,可以有效帮助企业决策、节约成本、创造价值。联想公司是全球电脑市场的领导企业,具有全球领先的超算构建能力和遍布全球存量巨大的多样化设备和数据集群,以及产品信息、客户服务、运行维护、故障修理等海量数据资源,这些为公司在大数据挖掘和分析方面形成了先天优势。本文结合联想公司在这方面的探索与实践,论述大数据蕴含的价值和提取方法,并介绍在保护用户数据隐私的前提下如何对数据进行挖掘利用。



数据的分析与预测


人类对于数据的应用自古有之。随着人类社会从工业时代进入信息时代和智能时代,数据的生产和消费量持续扩大,现代意义上的数据分析和预测在不断发展和进化。随着最近十几年信息化在社会生产生活中的普及和深入,特别是大量多源多态数据的快速增长,数据分析和预测在应用范围和要求上都产生了显著的变化。


首先,数据分析和预测需要处理海量的非结构化、半结构化和结构化的数据,其中非结构化的数据占全部数据量的70%~80%。精确高效地抽象出这类数据的概念性模型,并将其转化为结构化的数据模型,是大数据分析和预测的难点和关键。其次,数据分析和预测的广度和深度在持续扩展,对于精确度和敏捷度的要求也在不断提高。除了高速发展的互联网行业和应用催生的精确推荐、用户行为分析、点击量预测等典型场景,传统行业(比如金融、制造、医疗、供应链和物流等)对高效的大数据分析和预测的要求也在快速增加,希望能够实现数据驱动的快速运营决策和优化,进而提高效率、节省成本甚至催生新的产品或流程。


相应地,大数据领域的核心数据分析技术,已经从传统的统计模型扩展到以机器学习或深度学习为主的模型,其技术应用范式也相应进化,对数据质量和特征工程更加敏感。对于数据分析应用来说,数据来源和质量是数据分析工作的首要关注点。除了挖掘企业的内部数据之外,还应充分考虑外部数据,同时需要利用包括机器学习在内的多种技术高效并尽可能自动地对数据进行预处理,从而为预测或决策模型的选择和训练准备高质量的数据。同时,如何将数据分析的结果和业务知识有机结合,对于大部分企业级的数据分析应用而言,正在成为另外一个重要的关注点。增强型分析(augmented analytics)的提出,就是在这方面的有益探索。


联想研究院近年在数据分析领域进行了相应的技术探索和实践,有效帮助企业进行业务流程优化,如供应链中的库存优化、生产线智能排产,以及配送路径优化等,借助于人工智能技术提升企业的效率和效益。


以联想集团服务供应链为例,目前存在的痛点包括对未来的需求把握不准确,应对突发事件的储备预案不足,多元可替换备件调度不智能,多需求点同时调度请求时分配不合理等。智能平台将对非必要场景的人为干预程度最大程度地降低,提高“机器智能”决策的占比。它的核心要点是提前预测,提前采购,提前调度,提前在离用户最近的服务站备货,在用户的产品发生故障之前就提前感知到需求,这样当需求真正发生时就能以最快的速度完成对用户备件更换的服务。用户满意度最大化就是平台的终极目标。为了实现这一目标,算法需要考虑与备件需求相关的各种内外部数据,针对不同业务场景关注的指标进行关联分析和因果分析,通过多模型集成学习发掘商业洞察背后的关键因子,以达到最佳的业务收益(如图1所示)。


图1 基于内外部数据融合的集成学习备件需求预测方案


联想研究院联合服务备件供应链部门研发了人工智能赋能的服务供应链智能平台。它在集预测、采购和调度于一身的同时,使每一个模块的决策准确度、反应速度以及自动化智能化程度都有了大幅度的提升。联想备件供应链预测的需求是要预测返修备件的数量,目的是要准确地向供应商提出订货量,以及准确控制仓库中的备件储备量。计算机备件是典型的具有生命周期的产品,系统根据备件生命周期不同阶段的特点,采用了不同的预测算法:


•新品导入阶段,由于特定种类备件的历史数据较少,即可供学习的数据量较少,很难在已发生的较少的数据量上构造预测算法,于是采用梯度提升决策树(Gradient Boosting Decision Tree,GBDT)算法,经过构造特征,在所有备件的历史数据中通过拟合历史来构造模型,然后用模型完成预测。另外,由于该阶段处于生命周期的早期,采用代价敏感回归和分位数回归等方法,将预测结果调高,达到代价预测最优化的目的。


•需求平稳阶段,由于单个备件产生了大量的历史数据,可以通过拟合各备件的历史完成预测,所以采用了时间序列分析、线性回归和神经网络等方法进行预测,然后将多种技术的结果进行集成,得到最终的预测结果。


•末次采购阶段,这是备件供应商根据自身生产计划,对设备生产厂提出的一个“窗口期”,设备厂商备件计划员需要做出紧急决策,在这个窗口期一次采购未来某个备件的所有用量。结合产品在保量数据和备件历史用量、备件故障率等数据,通过动态时间归准(Dynamic Time Warping,DTW)算法,可以对未来的长期需求趋势做出准确的预测。


这套解决方案成功应用于联想PC服务备件需求计划,每年可帮助业务缩减8%的资金投入。


在物流配送中,提升配送效率、优化成本配置和资源利用率是亟待解决的问题,这些问题集中体现在对运单、车辆及货物的分析和调度上。智慧物流的核心目标是通过优化配送路径,降低城市配送中心的运营成本,提升服务质量。联想研究院联合中国区物流研发的智慧物流平台,可以灵活地从城市路网、实时交通、天气情况等多源复杂数据中挖掘决策输入信息,根据车辆、运单、货量及客户信息,对分单排车智能优化,在保证满足复杂业务规则需求的同时,具备较强的泛化性和自学习持续进化能力。


如图2所示,平台采集和接入物流运输中的城市实时地图、运单、车辆、费率等内外部多源数据,通过深度图网络模型有效挖掘出“订单—客户—路线”之间的复杂关系,面向不同优化目标及权重,如时间最短、成本最低、装载率高、空驶率低等,基于多智能体强化学习进行实时求解,能够快速、动态地产生不同目标优先级的智能调度方案集合。基于联想中国区物流北京配送中心的实际运行数据仿真模拟,本套方案预期可节约10%以上的物流配送成本。


图2 基于内外部数据融合的物流路径优化方案



数据的提取与加工


数据已经成为当今的“新石油”。各行各业每时每刻都有数据产生,数据的激增为基于数据的智能应用创造了前所未有的施展空间。“新石油”需要“提炼”才有用,而这项技术对应着大数据的提取与加工,当下基于知识图谱(knowledge graph)的大数据提取和加工技术最具代表性,近年来也最为活跃。


知识图谱的概念由谷歌在2012年正式提出[2],旨在利用知识构建更智能的搜索引擎。基于知识图谱的大数据提取与加工的过程如图3所示,包括提取、融合、关联三个关键步骤。提取就是从数据源中识别出需要的实体和关系,数据源可以是海量的文本、网页、表格或图片,从数据源中提取出来的知识最初是一些碎片,需要融合技术将众多碎片知识通过关系连接起来。随着碎片知识越聚越多,最终形成一个知识网络,即构成了知识图谱。内部的知识图谱还可以与外部公开的知识图谱关联,从而使知识图谱继续增长,构建为一个既包含自有知识又兼具公开知识的内容丰富的知识资源。用这样的数据提炼技术,我们可以从海量甚至泛滥的大数据中萃取出知识,并且使计算机更容易使用,具有更高的价值。


图3 基于知识图谱的大数据提取与加工


我们以联想客服知识图谱为例,介绍将数据加工为知识图谱的过程。联想客服知识图谱中储备了售前、售后、手机使用、故障排除和常识5大类知识,总的实体数量超过30万条。这些知识是从大数据中抽取、融合、关联得到的。


联想有关于产品信息、客户服务、运维、故障修理等各种数据资源,互联网上也有大量关于联想公司、联想产品的介绍和评论。这些信息构成了联想客服知识图谱的原材料。这些原材料来自不同的业务应用和不同的区域,因此格式复杂、数据异构,同时语言种类也比较多,知识融合成为难点。知识互联的自动学习也是一个很大的挑战。


联想客服知识的抽取就是按照知识图谱的总体本体定义,从数据原材料中抽取出需要的实体和关系。比如,针对公司产品的调查问卷、公开的产品评论,可以利用产品名识别技术(named entity recognition)和情感分析技术(sentiment analytics),自动构建产品评论知识,并和联想产品知识图谱自动关联。构建完成后,在联想客服知识图谱中,每款产品分别对应必备型、期望型、魅力型、无差异、反向型等多级评价。这些细粒度的知识不仅可以更好地引导客服流程,而且还可以应用于指导业务的质量改进和产品迭代。


另外一类比较重要的知识是对话策略相关的知识,这类知识可以帮助客服机器人理解用户的行为,进而跟踪和管理对话的状态,更好地指导机器人自然、友好地与人对话。这些知识是从大量的人工客服与用户的对话中加工出来的。获取了客服代表和用户在服务中的对话日志,借助流程策略识别、抽取、加工和合并,最终形成相关的策略、流程等知识图谱。联想的客服机器人已在更大范围内投入使用,也逐渐融入线下服务,因此可以从过去维修记录中提取问题根源相关的知识,这些知识可以用来辅助人工更快地诊断问题,进而提高其生产率,最终提升用户体验。 


除了基于知识图谱技术进行知识的提取与加工,基于众包(crowdsourcing)和基于人计算(human computing)等大数据加工技术也值得关注。众包的模式把数据加工拆分成众多微型任务,然后在网络平台上批量发布,通过广泛招募志愿者或付费工作者来完成数据加工;人计算的模式,侧重人能轻易完成而机器难以完成的任务。这些方法都是通过调动大众的力量,试图用相对便宜的价格获得大规模的加工数据,它们随着智能网络的兴盛和AI技术的进步应运而生,并逐渐被业界认可和使用。 


未来大数据加工的广度和深度以及影响,可能会超越我们的想象,不过我们相信不论使用何种数据加工方法,大数据提取与加工必将向“知识共享,知识融合,数据自由”[3]的方向努力。然而,随着大数据提取与加工技术的进步,从大量关联的普通数据中还原出用户的敏感、隐私信息已不再困难。如何在数据加工、共享及使用中保证数据安全、可信、受控,成为大数据抽取与加工的新课题。



数据的隐私与安全


近年来,基于深度学习的人工智能取得了突破性进展,显著提高了图像识别、自然语言理解、辅助医学等任务的准确性。深度学习模型需要使用海量数据进行训练才能充分发挥其性能,但在政府电子政务、智慧城市、医疗、金融、交通等领域,集中收集数据会带来严重的隐私泄露风险。现代社会越来越关注个人数据滥用和数据隐私保护问题。例如,2018年5月欧盟推出了《通用数据保护条例》(GDPR)[4]。根据GDPR的规定,企业在收集、存储和使用个人信息时,应当征得用户的同意,用户对自己的个人数据拥有绝对的控制权。


隐私、安全和监管要求为人工智能带来了前所未有的挑战。为了解决深度学习中的数据隐私问题,学术界和工业界出现了一些保护隐私的深度学习模型和系统。例如,苹果公司提出使用差分隐私[5],即在数据中添加适当噪声以消除个人身份信息。但差分隐私加入的噪声可能会影响深度学习模型的训练精度。另外,这种方案仍然需要个人和组织之间进行数据共享,这可能是GDPR等条例所不允许的。最近,谷歌提出了联邦学习框架[6,7],其基本思想是支持使用驻留在智能手机等设备上的大量分散数据进行训练。工业界对于联邦学习有多种不同的实现方式[8~10]。虽然联邦学习不需要共享数据,但其依赖于中央服务器来协调训练过程,仍然存在隐私泄露问题。


联想研究院人工智能实验室AI算力平台团队通过融合区块链和分布式训练技术提出了基于区块链的分布式模型训练解决方案(BDML)[11]。BDML的目标是使不同的个人和组织能够共同为特定的问题训练一个模型,而不需要公开私有数据,且训练所得模型的精度可以逼近需要将数据集中存储的传统深度学习。BDML是一个完全分布式的框架,无需中央服务器,基于区块链激励机制和密码学技术,为参与协同训练的各方提供数据保密性、计算可审计性和奖励机制。


如图4所示,在BDML中,区块链上的每个区块都包含一个模型定义和模型参数。在BDML基本协议中,区块链网络中存在计算力提供者(矿工)和验证者两种角色。矿工首先从最新区块获取模型及参数,然后使用本地私有训练数据进行训练、竞争,生成新区块;训练完成后在区块链网络中广播训练得到的模型及参数。验证者接收到广播后在本地私有测试数据上进行测试,给出投票结果。如果测试结果优于最新区块上的模型及参数,便投赞成票;反之,则投反对票。BDML支持严格策略、宽松策略和混合策略等多种共识策略。新区块的生成是由验证者的投票结果及“挖矿”速度决定的。若投票通过且“挖矿”速度最快,则新区块生成。在生成新区块的同时,相关矿工和验证者都会获得相应的奖励。如果投票未通过,矿工则相当于向社区贡献了自己的模型及参数,其他矿工可以综合其模型或参数后继续训练。


图 4 基于区块链的分布式模型训练解决方案——BDML 基本协议


BDML支持对基本协议进行扩展。例如,可增加模型融合者角色用于支持异构数据;可将多个任务的区块链互联以支持任务之间的迁移学习;可通过自适应增强的方式自动调节矿工训练步数来防止未拟合或过拟合。


BDML可以应用在多种场景下。例如,在医疗图像处理领域,病人的隐私数据分别存放于多个医疗机构,每家医疗机构拥有的数据量可能不足以单独完成一个精度较高的模型训练任务,而医疗机构之间无法实现数据共享,病人隐私数据也不允许在医疗机构外使用,更无法将多家医疗机构的数据整合到一起进行模型训练。应用BDML进行合作训练,可以在保证各家医疗机构的病人隐私数据仅在本地进行访问和使用,且不泄露给其他参与者的情况下,实现来自多家机构的参与者远程共同训练一个模型的目标。


在基于区块链多链系统的BDML扩展架构中[12],有多个待解决的医疗图像处理模型训练任务,每个区块链上存放一个模型训练任务的相关信息,由一组参与者维护并进行合作训练,并根据模型结构、数据类型、训练目标等评判指标计算不同任务之间的相似度。在新任务被发起时,如果针对新任务的数据不足以完成模型训练,则参与者将根据该任务与其他已有任务的相似度来选取最相似的任务,应用迁移学习实现辅助训练,从而实现用少量数据完成模型训练任务的目标。在实践中,应用迁移学习获取相似医疗图像处理任务模型的信息可以有效地提高模型训练速度,模型精度也有一定的提升。在小数据集训练的场景下,迁移学习的加速和提升效果尤为突出。


BDML保证了各医疗机构的病人隐私数据不直接泄露给其他参与者,但仍然有研究表示可以通过模型梯度反推出原始数据的一些信息。针对该问题,我们采用了部分参数更新广播的方案,在各参与者的本地模型训练结束后,对生成的模型参数根据梯度大小排序,仅更新梯度较大的一部分参数,这样可以避免其他参与者通过模型反推获取到本节点隐私数据信息。实践表明,在参数更新比例为10%时,最终合作训练出的医疗图像处理模型的精度与更新100%参数时基本一致;仅更新5%参数时,精度有所下降。此方案可以在BDML防止隐私数据直接泄露的基础上,进一步降低数据间接泄露的可能性,更好地保护了各医疗机构病人的隐私数据。



未来展望


联想正在进行智能化转型,明确以智能物联网、智能基础设施、智能垂直行业为发展方向。作为全球电脑市场的领导企业,联想拥有终端设备存储的丰富数据、全球领先的超算构建能力以及客服运维物流仓储等海量资源,这些都为联想的智能化变革打下了基础。目前联想通过自主构建的大数据平台、工业物联网平台、企业级人工智能平台,在提升自身效能的同时,将智能技术提供给其他企业,帮助他们实现各环节数据的采集、分析和融合,更容易地使用智能化技术提升企业效能。


从数据提取价值,可以优化流程、节约成本、产生收益。这个过程也在反向促进数据处理与分析技术的进步。当前,智能化变革已经成为时代趋势。人工智能正在各行各业落地,旨在提升行业效率,催生新的业态、产品和服务。要想人工智能进一步与行业结合,发挥更大的作用,包括联想在内的企业应该携起手来,共同促进人工智能技术的进一步突破,推动人工智能进一步落地行业,助力产业发展,造福人类生活。



参考文献


[1] Beyer M A, Laney D. The importance of 'big data': A definition[J]. Gartner, 2012: 2014-2018.

[2] Singhal A. Introducing the knowledge graph: things, not strings[OL]. https://googleblog.blogspot.co.uk/2012/05/introducing-knowledge-graph-things-not.html.

[3] Harari Y N. Homo Deus: A Brief History of Tomorrow Hardcover[M]. 2017.

[4] General Data Protection Regulation (GDPR). https://gdpr-info.eu/.

[5] Differential privacy. https://www.apple.com/privacy/approach-to-privacy/.

[6] McMahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[C]// Proceedings of the 20th International Conference on Artificial Intelligence and Statistics, 2017.

[7] Bonawitz K, Eichner H, Grieskamp W, et al. Towards federated learning at scale: System design[C]// Proceedings of the 2nd SysML Conference, 2019.

[8] TensorFlow Federated: Machine Learning on Decentralized Data[OL]. https://www.tensorflow.org/federated.

[9] OpenMined[OL]. https://www.openmined.org/.

[10] Federated AI Ecosystem[OL]. https://www.fedai.org/.

[11] Wang Q, Li M, Zhang W, et al. BDML: Blockchain-based distributed machine learning for model training and evolution[C]// Proceedings of the 2nd International Symposium on Foundations and Applications of Blockchain, 2019.

[12] Zhang W, Wang Q, Li M. Medical Image Collaborative Training Based on Multi-Blockchain[C]// Proceedings of IEEE International Conference on Bioinformatics and Biomedicine, 2019.



作者介绍



芮 勇

CCF会士、常务理事。联想集团首席技术官、高级副总裁。曾任微软亚洲研究院常务副院长。CAAI/ACM/IEEE/IAPR/SPIE Fellow,欧洲科学院外籍院士。负责联想集团技术战略和研发方向的规划和制定。


CCF推荐

【精品文章】


点击“阅读原文”,加入CCF,获得更多CCCF文章。

继续滑动看下一个
中国计算机学会
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存